XDRush

机器学习之Logistic Regression适用性

1 概述

Logistic Regression是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户够买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性。注意:这里的可能性并非数学上的概率,不可以当作概率值来用,但是可能同概率作映射。

2 适用性

2.1 可用于概率预测,也可用于分类

并不是所有的机器学习方法都可以做可能性概率预测(比如SVM就不行,它只能得到1或者-1)。可能性预测的好处是结果有可比性:比如我们得到不同广告被点击的可能性后,就可以展现点击可能性最大的N个。这样一来,哪怕得到的可能性都很高,或者可能性都很低,我们都能去最优的top N。当用于分类问题时,仅需要设定一个阈值,可能性高于阈值是一类,低于阈值是另一类。

2.2 仅能用于线性问题

只有在feature和target是线性关系时,才能用LR(不像SVM那样可以做非线性问题)。这有两点指导意义:一方面当预先知道模型非线性时,果断不能用LR,另一方面,在使用LR时注意选择和target呈线性关系的feature。

2.3 各feature之间不需要满足条件独立假设,但各个feature的贡献是独立计算的

LR不像朴素贝叶斯一样需要满足条件独立假设,但每个feature的贡献是独立计算的,即LR是不会自动combine不同的feature产生新的feature的。举个例子,如果你需要TFIDF这样的feature,就必须明确的给出来,若仅仅分别给出两维TF和IDF是不够的,那样只会得到类似aTF+bIDF的结果,而不会有cTF*IDF的效果。